Вопросы с тегами [apache]

1

голосов
1

ответ
198

Просмотры

Что происходит, когда есть только один раздел в Кафки темы и несколько потребителей?

У меня есть Кафка тема только один раздел, и я не получаю то, что будет происходить в следующих случаях? Как сообщения будут доставлены потребителям? Если все потребители находятся в одной группе Если все потребители находятся в другой группе, я не уверен, что если потребители будут получать уникальные сообщения или дублировать из них.
hard coder
1

голосов
1

ответ
87

Просмотры

Изменить имя файла для файла, загруженного с помощью mod_xsendfile

Я использую mod_xsendfile для загрузки / показать файлы на веб-странице. Это прекрасно работает, я просто интересно, если есть способ, которым я могу изменить имена файлов перед отправкой их? Я предполагаю, что я должен был бы скопировать / переименовать файл временно управлять этим? Который не может быть возможным для больших файлов (из-за тайм-аут, или, по крайней мере, времени ожидания). Причина Я спрашиваю, что я публично разделяемые файлы, которые имеют префикс с пользователем, совпадающим именем файла - поэтому вместо videofile.mp4 он будет говорить username__videofile.mp4- не имеет большое значение, это не так, как загрузчик Безразлично» т уже знают, кто разделяет файл, то он будет просто сделать его немного легче, если имя файла было только оригинальное имя файла. Я предполагаю, что в ТЕМП-копировать / переименовать единственный способ сделать это?
junkfoodjunkie
1

голосов
2

ответ
920

Просмотры

pyspark: получение параметров наилучшей модели в после gridsearch пусто {}

может кто-то помочь мне извлечь параметры лучшего исполнения модели от моего поиска сетки? Это пустой словарь по какой-то причине. от pyspark.ml.tuning импорта ParamGridBuilder, TrainValidationSplit, CrossValidator из pyspark.ml.evaluation импорта BinaryClassificationEvaluator поезда, тест = df.randomSplit ([0.66, 0.34], семена = 12345) paramGrid = (ParamGridBuilder () .addGrid (lr.regParam , [0.01,0.1]) .addGrid (lr.elasticNetParam, [1,0,]) .addGrid (lr.maxIter, [3,]) .build ()) оценщик = BinaryClassificationEvaluator (rawPredictionCol = "rawPrediction", labelCol = "купить «) evaluator.setMetricName ( 'areaUnderROC') = CrossValidator резюме (оценка = трубопровод, estimatorParamMaps = paramGrid, вычислитель = оценщик,
user798719
1

голосов
2

ответ
860

Просмотры

что лучше практик, чтобы получать сообщения из нескольких тематических разделов Кафки?

Мне нужно потребительские сообщения из различных тем Кафки, Должен ли я создать другой экземпляр потребителя за тему, а затем начать новую обработку резьбы в соответствии с количеством разделов. или я должен подписаться все темы от одного экземпляра потребителей и должны начать разные технологические потоки Благодарности и пожелания, MEGHA
Megha
1

голосов
1

ответ
117

Просмотры

Свеже клонировал Тик сборка не удается

Я пытаюсь установить Apache Тика на Windows, и я бегу MVN установить в соответствии с инструкциями Когда я делаю это я получаю отказ, как показано ниже: Тесты запуска: 12, Отказы: 1, ошибки: 0, пропущено: 0, Время, прошедшее: 0,001 сек
Dave Poole
2

голосов
0

ответ
30

Просмотры

Есть ли способ для кэширования на нагрузке?

Есть вариант с sparksession.read () для кэширования на нагрузке? Я читаю XML-файлы из s3, и первый сканирует файлы, чтобы получить схему. Поскольку это читает файлы в любом случае, я бы просто загрузить в то время, так что он только читает все файлы из s3 один раз. Есть какой-либо способ сделать это? Я уже искал каждую комбинацию «искры», «кэш», «загрузка» и «читать» и пошел по крайней мере две страницы глубоко. sparkSession.read () формат ( "com.databricks.spark.xml") .load ( "S3A: //").
user2661771
0

голосов
0

ответ
5

Просмотры

Использование Slick с Куду / Impala

Таблицы Куду могут быть доступны через Impala, таким образом, его драйвер JDBC. Благодаря тому, что это через стандартный, доступная Java / лестницу JDBC API. Мне было интересно, если это возможно, использовать пятно для него. Или, если не какие-либо другие рамки дб высокого уровня поддержки impla Scala / куды.
abalcerek
1

голосов
1

ответ
31

Просмотры

Избегайте печати коды при выполнении сценариев в свече оболочке

Я пытаюсь подключиться к БД с искровой в оболочке с использованием сценариев в файле лестница. При подключении скрипта требуется пароль из другого места, но это печать в консоли искрового оболочки. Я просто хочу, чтобы избежать их. Код в Scala, как показано ниже, Вэл конфигурации = Map ( "драйвер" -> "имя_драйвера", "URL" -> "DbUrl", "пользователь" -> "Имя пользователя", "пароль" -> "741852963"); При загрузке этого кода в искровой оболочке печатается код в искровой оболочке тоже. Я хочу, чтобы они одни части, чтобы не печатать в свече консоли. Как я могу добиться этого?
John Humanyun
0

голосов
0

ответ
4

Просмотры

Как добавить выключение крючок в Apache FLiNK работу?

Я использую REDIS пул соединений в моей FLiNK работе. Мне нужно, чтобы освободить все соединения, когда задание отменено или закончено. Как я могу добавить выключение крючок для моей FLiNK работы?
孙兴斌
0

голосов
0

ответ
11

Просмотры

how to pass a SparkContext from pyspark file to a scala UDF?

У меня есть файл pyspark и мои основные коды, написанные на Python в этом файле. а также у меня есть файл Scala, который содержит некоторые функции, написанные в Scala и использовать их как UDF, в pyspark коде. Теперь мне нужно прочитать файл CSV как Спарк DataFrame в функциях Scala. для этого мне нужно создать SparkSession или SparkContext. Это моя функция Scala: объект GetProductNameScalaUDF {VAL искра = org.apache.spark.sql.SparkSession.builder.master ( "нить") APPNAME ( "некоторое название приложения") getOrCreate () Вал csv_df = spark.read... . формат ( "CSV") вариант ( "заголовок", "истина") нагрузка ( "/ путь / file.csv") Защита SomeFunction (someParameterFromPythonCode: Int). {// Я использую csv_df в этой функции! ...} Защита getProductName (): UserDefinedFunction = UDF (SomeFunction _)}, но SparkContext уже создан в pyspark файл и когда я запускаю его, я сталкиваюсь ошибку вроде этого: org.apache.spark.SparkException: Не удалось получить broadcast_16_piece0 из broadcast_16 я уже видел этот вопрос это как у меня, и я обнаружил, что проблема несколько SparkContext, созданных как в pyspark файле и Scala файл, но я попробовал свои ответы, и они не работали. Я также видел этот вопрос, чтобы пройти SparkContext или SparkSession в качестве параметра из pyspark файла в функции Scala, но от pyspark к функции питона и что не работает ни. Мой вопрос, я создаю SpaekContext и SparkSession в pyspark файл и хочу, чтобы передать их в качестве параметров функций Scala. Как я могу добиться этого? это мой питон код: СБН = SparkContext () sqlContext = SQL.
Ali AzG
0

голосов
0

ответ
3

Просмотры

Как выполнять функции SQL DB2 в SPARKSQL

Мы понимаем, что MYSQL и DB2 являются реляционными базами данных. SQL используется в MYSQL отличается от SQL в DB2 (с помощью некоторых дополнительных функций). При работе с искровым SQL работы с использованием SQL DB2 Я столкнулся с вопросом, что функция не найдено. Но на самом деле эта функция доступна в DB2, но не в MYSQL. multiply_alt это ошибка функции метания. Искра-SQL только для нормального SQL Server? Запуск Спарк-SQL работы с SQL DB2 Exception в потоке "основной" org.apache.spark.sql.AnalysisException: Неопределенная функция: 'multiply_alt'. Эта функция не является ни зарегистрированной временной функцией, ни постоянная функция, зарегистрированной в «по умолчанию» в базе данных .; линия 830 поз 7
Goutham ssc
1

голосов
1

ответ
6.6k

Просмотры

Использование Apache синфазной командной строки для разбора аргументов

Apache общего кли есть пример на своем веб-сайте для команды LS: options.addOption ( «а», «все», ложные, «не скрывать записи, начинающиеся с»); options.addOption ( «А», «почти все», ложные, «не перечисляют подразумевается и ...»); options.addOption ( «б», «бежать», ложь, «печать восьмеричные сбегает для неграфических» + «символов»); options.addOption (OptionBuilder.withLongOpt ( "блок-размер") ( ".withDescription использовать размер-байтовые блоки") .hasArg () .withArgName ( "размер") .create ()); Это показывает помощь, как это: -a, --all не скрывают записи, начинающиеся с. -А, --almost-все не выдавать подразумеваемые. и .. -b, --escape печать восьмеричный сбегает для неграфических символов --block размера = использование SIZE SIZE-байтные блоки Когда я пишу этот код, он показывает --block-размер. Я хочу, чтобы показать что-то вроде этого: -z, - размер блока = размер (не только длинный вариант). какова разница PosixParser и GnuParser? Я изменил их в коде, я не наблюдал никакой разницы. Когда я обеспечиваю неправильный вариант для примера ч он не бросает любой ParseException. Программа начинается и заканчивается нормально. какова разница PosixParser и GnuParser? Я изменил их в коде, я не наблюдал никакой разницы. Когда я обеспечиваю неправильный вариант для примера ч он не бросает любой ParseException. Программа начинается и заканчивается нормально. какова разница PosixParser и GnuParser? Я изменил их в коде, я не наблюдал никакой разницы. Когда я обеспечиваю неправильный вариант для примера ч он не бросает любой ParseException. Программа начинается и заканчивается нормально.
Majid Azimi
1

голосов
1

ответ
92

Просмотры

Java Spark: com.mongodb.spark.config.writeconfig вопрос

Я пытаюсь соединиться с MongoDB через искровой разъем Java и я получаю сообщение об ошибке «com.mongodb.spark.config.writeconfig», когда я представить банку и запустить банку в свече оболочки. Здесь скриншот ошибки: Не могли бы вы помочь мне решить эту проблему. Я попытался это, как хорошо, но никакого успеха. . $ / Бен / sparkR --conf "spark.mongodb.input.uri = MongoDB: //127.0.0.1/test.myCollection readPreference = primaryPreferred" ./bin/sparkR --conf «spark.mongodb.output.uri = MongoDB: //127.0.0.1/db.test»./bin/spark-shell --packages org.mongodb.spark: монго-искровой connector_2.11: 2.2.0 $ искровых представить --master местного - класс com.test.spark.SparkClient /home/otalogin/SparkClient.jar $ искровым представить --master местного --class com.test.spark.SparkClient /home/otalogin/SparkClient.jar --jar Монго-искровым connector_2 +0,11: 2.2.0, но получить ту же ошибку.
Tom Swayer
1

голосов
1

ответ
724

Просмотры

Иерархическая манипулирование данными в Apache Спарк

Я имею Dataset в Спарк (v2.1.1) с 3-х столбцов (как показано ниже), содержащий иерархические данные. Моя цель цель состоит в том, чтобы назначить инкрементный нумерацию для каждой строки на основе иерархии родитель-потомок. Графически это можно сказать, что иерархические данные представляет собой совокупность деревьев. Согласно таблице ниже, у меня уже есть строки, сгруппированные на основе «Global_ID». Теперь я хотел бы, чтобы создать колонку «Value» в инкрементном порядке, но на основе иерархии данных из «Родителя» и «ребенок» столбцов. Табличное представление (Значение требуемый выход): + ----------- + -------- + ------- + ----------- + ------- - + ------- + ------- + | Текущий Dataset | | Желаемый Dataset (выход) | + ----------- + -------- + ------- + ----------- + ------- - + ------- + ------- + | Global_ID | родитель | Ребенок | | Global_ID | родитель | Ребенок | Значение | + ----------- + -------- + ------- + ----------- + ------- - + ------- + ------- + | 111 | 111 | 123 | | 111 | 111 | 111 | 1 | | 111 | 135 | 246 | | 111 | 111 | 123 | 2 | | 111 | 123 | 456 | | 111 | 123 | 789 | 3 | | 111 | 123 | 789 | | 111 | 123 | 456 | 4 | | 111 | 111 | 111 | | 111 | 111 | 135 | 5 | | 111 | 135 | 468 | | 111 | 135 | 246 | 6 | | 111 | 135 | 268 | | 111 | 135 | 468 | 7 | | 111 | 268 | 321 | | 111 | 135 | 268 | 8 | | 111 | 138 | 139 | | 111 | 268 | 321 | 9 | | 111 | 111 | 135 | | 111 | 111 | 138 | 10 | | 111 | 111 | 138 | | 111 | 138 | 139 | 11 | | 222 | 222 | 654 | | 222 | 222 | 222 | 12 | | 222 | 654 | 721 | | 222 | 222 | 987 | 13 | | 222 | 222 | 222 | | 222 | 222 | 654 | 14 | | 222 | 721 | 127 | | 222 | 654 | 721 | 15 | | 222 | 222 | 987 | | 222 | 721 | 127 | 16 | | 333 | 333 | 398 | | 333 | 333 | 333 | 17 | | 333 | 333 | 498 | | 333 | 333 | 398 | 18 | | 333 | 333 | 333 | | 333 | 333 | 498 | 19 | | 333 | 333 | 598 | | 333 | 333 | 598 | 20 | + ----------- + -------- + ------- + ----------- + ------- - + ------- + ------- + Дерево Представление (Заданное значение представлено рядом с каждым узлом): + ----- + + ----- + 1 | 111 | 17 | 333 | + - + - + + - + - + | | + --------------- + -------- + ----------------- + + ----- ----- + ---------- + | | | | | | + - v - + + - v - + + - v - + + - v - + + - v - + + - v - + 2 | 123 | 5 | 135 | 10 | 138 | | 398 | | 498 | | 598 | + - + - + - + - + - + - + - + - + - + - + - + - + + + ----- + - ---- + -------- + -------- + | 18 19 20 | | | | | | + - v - + + - v - + + - v - + + - v - + + - v - + + - v - + | 789 | | 456 | | 246 | | 468 | | 268 | | 139 | + ----- + ----- + ----- + ----- + ----- + - + - + + + + ----- 12 | 222 | 3 4 6 7 8 | 11 + - + - + + - v - + | | 321 | + ------ + ------- + + - + - + | | 9 + - v - + + - v - + 13 | 987 | 14 | 654 | + - + - + + - + - + | + - v - + 15 | 721 | + - + - + | + - v - + 16 | 127 | + - + - + Код сниппета: Dataset myDataset = искра .sql ( "выберите Global_ID, родитель, ребенок из ЗАПИСИ"); Технология Стек: Apache Спарк (v2.1.1) Java-8 AWS ОГО кластера (Спарк приложение развертывание) Объем данных: около ~ 20 миллионов строк в наборе данных Подходов Пытался: Свечи Graphx + GraphFrames: Используя эту комбинацию, я мог бы достичь только соотношения между вершины и ребра, но он не подходит для моего случая использования. Справка: https://graphframes.github.io/user-guide.html Спарк Graphx ПРЕГЕЛЯ API: Это ближе всего я мог бы получить к достижению ожидаемого результата, но, к сожалению, я не смог найти код Java фрагмент кода для того же. Пример, приведенный в одном из блогов в Scala, которые я не очень хорошо знаком с. Ссылка: https: // DZone. ком / статьи / обработка иерархической-данные с помощью искры-Graphx пр Любых предложений альтернатив (или) изменений в существующих подходах были бы очень полезно, поскольку я полностью потерял в выяснении решения для этого случая использования. Ценю твою помощь! Спасибо!
Sridher
1

голосов
2

ответ
700

Просмотры

Apache Camel обратная передача: как использовать номер попытку

У меня есть верблюд маршрут с предложением OnException: на каждом повторную доставку я хочу, чтобы увеличить redeliveryDelay. Как я могу получить attemptNumber? DefaultErrorHandler явно хранит его где-нибудь, потому что он выводит его в журнал, например, «О попытке доставки: 1 пойманы» «Исключение повторов в» OnException (MyException.class) .handled (истина) .log (LoggingLevel.ERROR, + (10000 * attemptNumber) + "мс") .maximumRedeliveries (2) .redeliveryDelay (10000 * attemptNumber) Спасибо!
Gep
1

голосов
0

ответ
41

Просмотры

Как сделать Спарк работник чтения данных из локальной MongoDB с MongoDB-искровым разъем?

У меня два «MongoDB» на двух компьютерах. И есть также «Спарк работник» на каждом компьютере. Но когда я запускаю «искру», он не читает данные из локального «MongoDB». Вместо этого он читает от одного из них. Таким образом, получили только частичные данные. Существует страница. https://docs.mongodb.com/spark-connector/master/faq/ .Однако, после того, как я прочитал это, я не понимаю, как настроить на всех.
BobXWu
1

голосов
1

ответ
253

Просмотры

Запуск Elastic поиск по PDF и п.п.

Я новичок в упругий поиск. Я прочитал его учебники. Но нужно руководство по моей проблеме: У меня есть коллекция PDF-документы и файлы точки питания на моей системе. Мне нужно построить систему с использованием эластичного поиска, где я могу восстановить эти файлы на основе ключевых слов, содержащихся в этом файле. Может кто-то пожалуйста, руководство о том, как я могу продолжить здесь и индекс моего documents.Do мне нужно разобрать мой PDF и преобразовать его в формат JSON с помощью Тика или FSCrawler, а затем предоставить его упругий поиск. Спасибо.
Astha Sachdev
1

голосов
1

ответ
81

Просмотры

Как удалить негативную ошибку индекса в заводной коде?

У меня есть код логики внутри Nifi процессора (процессор executeScript), который позволит сократить лог-файлы (в данном случае в моих журнальных файлах у меня есть тот же самый текст, поэтому я хочу, чтобы удалить дубликаты и я стараюсь выбирать их по имени и размеру файла), но я иногда (не всегда) получил отрицательную ошибку индекса, то, что я должен изменить в своем коде, чтобы заставить его работать? импорт org.apache.nifi.processor.FlowFileFilter; импорт groovy.json.JsonSlurper импорта groovy.json.JsonBuilder импорт java.nio.charset.StandardCharsets импорт org.apache.commons.io.IOUtils Защита flowFile = session.get (); Защита п = 0; если (flowFile!) размер возврат DEF = flowFile.getAttribute ( 'Размер'); INT значение = размер как целое число; если ((значение / 338)> = 1) {Защита ffList = session.get (новый FlowFileFilter () {FlowFileFilterResult фильтр общественности (FlowFile и далее) {если (размер == ff.getAttribute (» Размер ')) {п ++; вернуться FlowFileFilterResult.ACCEPT_AND_CONTINUE;} еще {вернуть FlowFileFilterResult.REJECT_AND_CONTINUE; }}}); session.transfer (ffList [п-1], REL_SUCCESS); session.remove (ffList [0 ..- 2]) session.remove (flowFile); } Еще {session.transfer (flowFile, REL_SUCCESS); }
titan titan
1

голосов
0

ответ
280

Просмотры

Apache шторм: тик кортеж не работает

В моем приложении на основе Storm Мне нужно запросить оракул таблицу периодически Так я думал использовать Tick кортеж шторма. Но это не дает правильный результат и тик кортеж не производит. Моя буря версия 1.0.1.2.5.3.0-37 Я попытался, как показано ниже, метод Добавлено getComponentConfiguration болта, как http://www.michael-noll.com/blog/2013/01/18/implementing-real-time- трендовая-тема-в-шторма / ссылка, но клещ кортеж не создает. Поэтому я изменил код и использовать Config от топологии для генерации клеща tuple.I см https://www.safaribooksonline.com/blog/2014/01/06/multi-threading-storm/ ссылки, но здесь я получил тик кортежа только один раз , Ниже мой код клещевого кортежа с болтом, общественный класс TickTupleBolt реализует IRichBolt {частный OutputCollector коллектор = NULL; частный статический окончательный долго serialVersionUID = 1L; частный статический окончательный Logger LOG = LoggerFactory. getLogger (TickTupleBolt.class); общественного недействительными подготовки (Карта stormConf, TopologyContext контекст, OutputCollector коллектор) {this.collector = коллектор; } Общественного недействительными выполнить (Tuple кортеж) {log.info ( "Пуск в TickTupleBolt.execute"); попробуйте {если (isTickTuple (кортеж)) {//if(tuple.getSourceStreamId () равно ( "__ галочка")) {LOG.info ( "** получил тик кортеж"). } Еще {LOG.info ( "не получил клеща кортеж"); }} Улов (Исключение е) {LOG.error ( "Болт выполнить ошибку: {}", д); collector.reportError (е); } LOG.info ( "Конец TickTupleBolt.execute"); } Общественных недействительные очистки () {// TODO Auto-генерироваться метод окурок} общественных пустот declareOutputFields (OutputFieldsDeclarer декларанта) {// TODO Auto-генерироваться метод окурок} общественности Карты getComponentConfiguration () {// настраивает как часто клещ кортеж будет отправлены на наш болт Карта конф = новый HashMap (); conf.put (Config.TOPOLOGY_TICK_TUPLE_FREQ_SECS, 1); вернуться конф; .} Защищен булево isTickTuple (Кортеж кортеж) {возвращают tuple.getSourceComponent () равно (Constants.SYSTEM_COMPONENT_ID) && tuple.getSourceStreamId () равно (Constants.SYSTEM_TICK_STREAM_ID).; }} У меня одна ссылки Tick Кортеж не функционирует в апаче шторма 0.9.4, но нет ответа. Так может любой орган, пожалуйста, дайте мне знать, Как реализовать клещ кортеж в Сторме Есть ли другой способ (кроме клеща кортежа) делать периодическую работу в штормовых UPDATE - Топология Код Моих топологий строителя, открытый класс топологии {частный статический окончательный Logger LOG = LoggerFactory.getLogger (Topology.class) ; общественности статической StormTopology buildTopology () {TopologyBuilder строитель = новый TopologyBuilder (); builder.setSpout ( "tickspout", новый TickTupleSpout ()); builder.setBolt ( "tickbolt", новый TickTupleBolt ()) shuffleGrouping ( "tickspout"). вернуть builder.createTopology (); } государственной статической силы основных (String [] арг) бросает AlreadyAliveException, InvalidTopologyException, AuthorizationException {Config конф = новый Config (); //conf.put(Config.TOPOLOGY_TICK_TUPLE_FREQ_SECS, 5); // пробовал также conf.setDebug (истинную); //conf.setNumWorkers(2); StormSubmitter.submitTopology (арг [0], конф, buildTopology ()); }} UPDATE - Носик код общественного класса TickTupleSpout расширяет BaseRichSpout {частный статический окончательный Logger LOG = LoggerFactory.getLogger (TickTupleSpout.class); частный статический окончательный долго serialVersionUID = 1L; частный коллекционер SpoutOutputCollector; общественный TickTupleSpout () {} общественных недействительный открытой (Карта конф, TopologyContext контекст, SpoutOutputCollector коллектор) {// TODO Auto-генерироваться метод заглушка LOG.info ( "Начало TickTupleSpout.Open"); this.collector = коллектор; LOG.info ( "Конец TickTupleSpout.Open"); } Общественного недействительными nextTuple () {LOG.info ( "Начало TickTupleSpout.nextTuple"); this.collector.emit (новые значения ( "0"); // просто послать фиктивное значение log.info ( "Конец TickTupleSpout.nextTuple"); } Общественных пустот declareOutputFields (OutputFieldsDeclarer декларанта) {declarer.declare (новые поля ( "breachdata")); } // Карта общественного getComponentConfiguration () {// Config конф = новый Config (); // ИНТ tickFrequencyInSeconds = 5; //conf.put(Config.TOPOLOGY_TICK_TUPLE_FREQ_SECS, tickFrequencyInSeconds); // возвращает конф; //} } Спасибо.
parag dharmadhikari
1

голосов
2

ответ
410

Просмотры

Apache 2.2, Django, use Python 3.5

Я хочу, чтобы запустить Django с Apache2.2 и питоном 3.6, после внесения изменений в wsgy.py и virtuahost еще работает питон 2.6 Apache / 2.2.34 (Unix) DAV / 2 mod_wsgi / 3,2 Python / 2.6.9 настроены - возобновление нормального операции Здесь wsgi.py импорт ОС, SYS sys.path.append ( '/ дом / приложение / MyApp / sivale') sys.path.append ( '/ дом / приложение / myvenv / Lib / python3.6 / сайт-пакеты' ) os.environ.setdefault ( "DJANGO_SETTINGS_MODULE", "myapp.settings") от django.core.wsgi импорта get_wsgi_application приложения = get_wsgi_application () А вот ServerName nuevo.sivale.mx Алиас / статический / дом / приложение / MyApp / статический Разрешить от всего заказа отрицать, позволяют разрешить из всех WSGIDaemonProcess sivale питон-путь = / дом / приложение / MyApp: / дома / приложение / myvenv / Библиотека / python3.6 / сайт-пакеты WSGIProcessGroup sivale WSGIScriptAlias ​​/ /home/app/myapp/myapp/wsgi.py WSGISocketPrefix / вар / запустить / WSGI
Arturo Alm
1

голосов
1

ответ
283

Просмотры

Искру UDF написана на Java Lambda повышает ClassCastException

Вот исключение: java.lang.ClassCastException: не может назначить экземпляр java.lang.invoke.SerializedLambda для ... типа org.apache.spark.sql.api.java.UDF2 в экземпляре ... Если я не» т реализовать UDF на лямбда-выражения, это нормально. Как: частный UDF2 funUdf = новый UDF2 () {@Override общественного Строка вызова (Строка, строка б) бросает исключение {возвращать удовольствие (а, б); }}; dataset.sparkSession () UDF () регистр ( "Fun", funUdf, DataTypes.StringType)..; functions.callUDF ( "удовольствие" functions.col ( "а"), functions.col ( "б")); Я бегу в местной, так что этот ответ не поможет: https://stackoverflow.com/a/28367602/4164722 Почему? Как я могу это исправить?
secfree
1

голосов
0

ответ
68

Просмотры

Подсчитайте Départ рейсы из отсортированных данных с использованием Спарк

У меня есть набор данных полетов в виде + ---------------- + ---------- + ---------- --- + | flightID | depart_ts | arrival_ts | + ---------------- + ---------- + ------------- + | 1 | 1451603468 | 1451603468 | | 2 | 1451603468 | 1451603468 | | 3 | 1451603468 | 1451603468 | | 4 | 1451603468 | 1451603468 | | 5 | 1451603468 | 1451603468 | + ---------------- + ---------- + ------------- + и моя работа состоит в том, чтобы использовать Apache Спарк, чтобы найти обратный рейс для каждого полета данного некоторых условий (время отправления обратного полета B должен быть в течение 2-х часов с времени прибытия рейса A). Выполнение перекрестного соединения оГО Record, чтобы проверить эти условия не является эффективным и будет стоить много времени. Я думал об использовании функции окна с 1 раздела и пользовательского UDAF сделать расчет. Что-то вроде этого 1. Вал flightsWindow = Window.orderBy ( "depart_ts"). rangeBetween (0, 7200) 2. flights.withColumn ( "returnFlightID", calcReturn ($ "arrival_ts", $ "depart_ts"). над (flightsWindow)). показать () Учитывая, что такой подход приведет к решению, я столкнулся с некоторыми проблемами: в строке 1, я хочу, чтобы интервал диапазона кадров из текущей строки до arrival_ts + 7200, но, видимо, я не могу сделать динамический диапазон в искры, нет? В строке 1 и при условии, что 2 рейса имеет одинаковое время прибытия, это сделает невозможным для извлечения значений второго полета, когда CURRENT_ROW указатель перемещается туда, так как разность между первым полетом и вторым полетом 0. Можно явно указать диапазоне, чтобы начать кадрирование от CURRENT_ROW? В строке 2, Я хочу, чтобы получить значение depart_ts для самой первой строки кадра для сравнения с другими рейсами в кадре. Можно ли сделать это. Я попробовал первую функцию (), но она не подходит в моем случае.
Assem
1

голосов
4

ответ
817

Просмотры

Как проверить, если Кафка Потребитель готов

У меня есть Кафка совершить набор политик для последних и пропавших без вести первых нескольких сообщений. Если я даю спать в 20 секунд, прежде чем начать посылать сообщения на входной теме, все работает так, как хотелось бы. Я не уверен, что если проблема с потребителем принимать длительное время для раздела восстановления равновесия. Есть ли способ узнать, если потребитель готов, прежде чем начать опрашивать?
Nagireddy Hanisha
1

голосов
2

ответ
612

Просмотры

Нажатие вниз предикат фильтра в Спарк JDBC Свойства

Как я могу настроить мою искровые варианты JDBC, чтобы убедиться, что я нажимаю вниз предикат фильтра в базу данных, а не загружать все первым? Я использую искру 2.1. Не удается получить правильный синтаксис для использования, и я знаю, что могу добавить, где положение после загрузки (), но это, очевидно, погрузить все первым. Я пытаюсь ниже, но в то время как этот фильтр будет занять несколько секунд при работе в моем дб клиенте не возвращает ничего и просто продолжает работать, пытаясь оттолкнуть предикат от искры JDBC. Вал jdbcReadOpts = Map ( "URL" -> URL, "драйвер" -> драйвер, "пользователь" -> пользователя, "пароль" -> пройти, "dbtable" -> tblQuery, "inferSchema" -> "истина") Вэл предикат = "ДАТА (TS_COLUMN) = '2018-01-01'" // Также пробовал ->
horatio1701d
1

голосов
4

ответ
816

Просмотры

reference.conf исключение при запуске приложения Flink

У меня есть приложение dropwizard с помощью Flink читать из Кафки, но приложение взрывает с этим исключением, когда я начинаю его: Java -jar мой-app.jar сервер мой-config.yaml [2018-01-04T01: 04: 24,577Z] (основной) ([]) ИНФОРМАЦИЯ - FlinkMiniCluster - Остановка FlinkMiniCluster. [2018-01-04T01: 04: 24,591Z] (основной) ([]) WARN - ROOT - недоступны! com.typesafe.config.ConfigException $ UnresolvedSubstitution: reference.conf @ баночка: файл! /my-app.jar /reference.conf: 804: Не удалось разрешить замену на значение: $ {} akka.stream.materializer на ком .typesafe.config.impl.ConfigReference.resolveSubstitutions (ConfigReference.java:108) в com.typesafe.config.impl.ResolveContext.realResolve (ResolveContext.java:179) в com.typesafe.config.impl.ResolveContext.resolve (ResolveContext .java: 142) в com.typesafe.config.impl.SimpleConfigObject $ ResolveModifier. приложение работает просто отлично и успешно создает FlinkMiniCluster при отладке в IDEA. Я использую Flink 1.4 и не запустить FLiNK менеджер заданий при работе с IDEA или в командной строке. Есть ли конфигурация мне нужно быть настройки для запуска из командной строки?
tbrass86
1

голосов
0

ответ
145

Просмотры

Spark Dataset.groupBy().count() returns empty table

У меня есть Dataset.where ( «theColumn == число»), поэтому нет пустого поля theColumn. Dataset получен из базы данных Cassandra и все данные присутствуют. Dataset.groupBy ( "theColumn") рассчитывать () шоу ()..; возвращает пустую таблицу, хотя все строки существуют в Dataset, полученные из базы данных. Что может быть проблема? Как это исправить? Я установить значение spark.default.parallelism в конфигурации, но никаких изменений не произошло. У меня нет каких-либо других специальных конфигураций набора. Я называю этот метод в JavaDStream.foreachRDD и имею JavaStreamingContext и SparkSession работают. SparkSession: SparkSession искра = SparkSession .builder () .master ( "местный [4]") .appName (AppName) .config ( "spark.cassandra.connection.host", внутрибрюшинно). конфигурации ( "spark.cassandra.connection.port", порт) .config ( "spark.driver.allowMultipleContexts", "истина") .getOrCreate (); StreamingContext:. SparkConf sparkConfig = новый SparkConf () setMaster ( "местный [4]") .setAppName (AppName2) .set ( "spark.cassandra.connection.host", ф) .set ( "spark.cassandra.connection.port », порт) .set ( "spark.driver.allowMultipleContexts", "истинный"); JavaStreamingContext JSSC = новый JavaStreamingContext (sparkConfig, batchInterval); . ГруппеПо () расположение: logLines.foreachRDD (RDD -> {javaFunctions (РДД) .writerBuilder ( "my_keyspace", "имя_таблица", mapToRow (Table.class)) saveToCassandra (); Dataset DS = spark.read () .format (» шоу(); // Выводит пустую таблицу. }); ds.count () и ds.dropDuplicates.count () возвращает 0 Apache Spark версия 2.2.0 Кажется, что проблема возникает, когда оба JavaStreamingContext и SparkSession используются вместе. шоу(); // Выводит пустую таблицу. }); ds.count () и ds.dropDuplicates.count () возвращает 0 Apache Spark версия 2.2.0 Кажется, что проблема возникает, когда оба JavaStreamingContext и SparkSession используются вместе.
Elisabeth
1

голосов
1

ответ
507

Просмотры

NGINX против Apache? Что выбрать при развертывании реагировать

Я новичок в reactjs. Я создал основную реакцию приложения с помощью создания реагирующего-приложение шаблонного. Я подготовил сборку, выполнив команду сборки НПМ запуска. Теперь я хочу, чтобы разместить папку сборки. Что лучше и почему. Пожалуйста, дайте мне знать, если лучше и легкий вариант доступен как я новичок в этом.
DadyByte
1

голосов
0

ответ
109

Просмотры

Во время работы Docker контейнера с внешним Спарком Я получаю эту ошибку

Моя Искра работает в режиме кластера. Я сборка искровой Кассандры разъем баночка моего приложения банка затем посылающее задание от Докер. Тем не менее сталкиваются с этой проблемой. java.lang.ClassNotFoundException: com.datastax.spark.connector.rdd.partitioner.CassandraPartition на java.net.URLClassLoader.findClass (URLClassLoader.java:381) при java.lang.ClassLoader.loadClass (ClassLoader.java:424) в java.lang.ClassLoader.loadClass (ClassLoader.java:357) при java.lang.Class.forName0 (нативный метод) при java.lang.Class.forName (Class.java:348) при org.apache.spark.serializer. JavaDeserializationStream $$ Анон $ 1.resolveClass (JavaSerializer.scala: 67) в java.io.ObjectInputStream.readNonProxyDesc (ObjectInputStream.java:1863) в java.io.ObjectInputStream.readClassDesc (ObjectInputStream.java:1746) в java.io.
Chintamani
1

голосов
1

ответ
34

Просмотры

Как я могу поймать все маршруты с апача и HTML

Я пишу сценарий JS в index.html, что синтаксический анализ URL и перенаправлять к правильному месту назначения. например, он разбирает example.com/#/info и показывает правильную ссылку. Я хочу, чтобы он справиться с любой URL такой example.com/xyz. но он показывает ошибку 404. когда я добавляю .htaccess как это:! RewriteEngine на RewriteBase / RewriteCond% {REQUEST_URI} ^ / # # Перепишите все те вставить / RewriteRule папку ^ $ / # / $ 1 [L, R = 301] Но это Безразлично (*). «т работы. он бросает too_many_redirects ошибку.
paykoob
1

голосов
0

ответ
108

Просмотры

Читать .xlsm файл с помощью Apache POI получить больше ячеек в строке

Я использую ниже код для чтения .xlsm файла: Workbook термометру = WorkbookFactory.create (вход); Лист лист = wb.getSheetAt (0); INT firstRow = sheet.getFirstRowNum (); INT lastRow = sheet.getLastRowNum (); для (INT ROWNUM = firstRow; ROWNUM <lastRow; ROWNUM ++) {Строка строка = sheet.getRow (ROWNUM); Короче говоря firstCell = row.getFirstCellNum (); Короче говоря lastCell = row.getLastCellNum (); Код работает хорошо, кроме конкретной строки, есть только 7 ячеек показывают в MS Excel, но в программе я получил 27 клеток, большинство из них пустые, только последние несколько столбцов с данными, которые я не мог видеть в MS Excel. Является ли это из-за неправильный формат / данные в файле XLSM (как проверить, если так?), Или что-нибудь еще?
fuxiang
1

голосов
1

ответ
1.2k

Просмотры

Как преобразовать список в список ? (Apache CollectionUtils)

Мне нужно создать метод трансформатор, который может изменять тип объектов. Например: у меня есть образец списка и какие изменения в образец списка. Как написать метод, чтобы сделать это? Я действительно не понимаю, потому что я знаю, апач уже есть rhis метод -> CollectionUtils.transform (); (Полный путь - org.apache.commons.collections4.CollectionUtils.transform ();, но я не могу понять, как это работает и как написать метод whjich включает все В примере (http://www.baeldung.com/. Апач-Обще-коллекция-Utils, http://apachecommonstipsandtricks.blogspot.ru/2009/01/examples-of-functors-transformers.html) я видел, как в основных методах люди переопределить метод rhis, но как писать только метод и как это использовать?
sank
1

голосов
0

ответ
76

Просмотры

Как отправить Список выражения для агрегатной функции Спарк JAVA API

Я пытаюсь выполнить ниже код, используя Спарк Java API. sampleDS = sampleDS .select (колонка ( "столбец1"), Col ( "столбец2"), Col ( "price1") Col ( "price2")) .groupBy (колонка ( "столбец1"), Col ( "столбец2")) .agg (выражение ( "сумма (price1)"). как ( "MainPrice"), выражение ( "сумма (price2)"). как ( "ExtPrice")) .sort (COL ( "column1"), Col (» столбец2" )); Но эта часть в коде я хочу, чтобы быть динамической, .agg (выражение ( "сумма (price1)"). Как ( "MainPrice"), выражение ( "сумма (price2)"). Как ( "ExtPrice")) что означает только, если запрос имеет ExtPrice мне нужно ExtPrice быть там, ViceVersa для MainPrice т.е. если MainPrice выбран только код должен быть .agg (выражение ( «сумма (price1)»)), или при выборе только ExtPrice .agg ( выражение (»
John Humanyun
1

голосов
0

ответ
37

Просмотры

Первая проверка подлинности

Я установил (автономный) и правильно начал Apache Marmotta 3.3.0 на сервере Ubuntu. Но я не могу войти с паролем администратора по умолчанию (админ / pass123). Переход к моему хозяину: 8080, я получаю доступ к интерфейсу конфигурации. Но я ничего не могу изменить. Я и попытался с помощью Chrome и Safari. При нажатии на кнопку входа (сверху / справа) я не получаю, чтобы войти. Если я пытаюсь что-то изменить через интерфейс конфигурации, я пробужден в браузере с «Authentication Required» формы. Тем не менее администратор / pass123 сочетание doenn't работы.
CptNemo
1

голосов
0

ответ
512

Просмотры

Read first line of huge Json file with Spark using Pyspark

I'm pretty new to Spark and to teach myself I have been using small json files, which work perfectly. I'm using Pyspark with Spark 2.2.1 However I don't get how to read in a single data line instead of the entire json file. I have been looking for documentation on this but it seems pretty scarce. I have to process a single large (larger than my RAM) json file (wikipedia dump: https://archive.org/details/wikidata-json-20150316) and want to do this in chuncks or line by line. I thought Spark was designed to do just that but can't find out how to do it and when I request the top 5 observations in a naive way I run out of memory. I have tried RDD . SparkRDD= spark.read.json("largejson.json").rdd SparkRDD.take(5) and Dataframe SparkDF= spark.read.json("largejson.json") SparkDF.show(5,truncate = False) So in short: 1) How do I read in just a fraction of a large JSON file? (Show first 5 entries) 2) How do I filter a large JSON file line by line to keep just the required results? Also: I don't want to predefine the datascheme for this to work. I must be overlooking something. Thanks Edit: With some help I have gotten a look at the first observation but it by itself is already too huge to post here so I'll just put a fraction of it here. [ { "id": "Q1", "type": "item", "aliases": { "pl": [{ "language": "pl", "value": "kosmos" }, { "language": "pl", "value": "\\u015bwiat" }, { "language": "pl", "value": "natura" }, { "language": "pl", "value": "uniwersum" }], "en": [{ "language": "en", "value": "cosmos" }, { "language": "en", "value": "The Universe" }, { "language": "en", "value": "Space" }], ...etc
Sleenee
1

голосов
2

ответ
43

Просмотры

Сохранить файлы не находятся под государственным / активы, а под другую папку

У меня есть проект Rails. Мои файлы настроены быть сохранены под RAILS_ROOT / государственный / активов. Теперь мы переходим на новый сервер, и я хочу, чтобы все файлы, которые будут читать и сохранить в другую папку. Скажем / extra_drive, который находится в другой папке, чем приложение Rails (даже не в / вар / WWW / HTML). Как я могу это сделать? С Apache? с настройкой Rails?
Noam B.
1

голосов
1

ответ
118

Просмотры

Unknown javadoc format for JavaRDD error in Eclipse in Windows 10

I can't get the Javadoc for Spark core library to work on Eclipse and Windows 10. I have no JRE defined under preferences. I load the Javadoc I right-clicked on the jar file in eclipse-> project explorer -> maven -> download Javadoc. What I typically do. See attached image. How to fix this? Stack Trace is: Java Model Exception: Java Model Status [Unknown javadoc format for JavaRDD {key=Lorg/apache/spark/api/java/JavaRDD;} [in JavaRDD.class [in org.apache.spark.api.java [in C:\Users\karln\.m2\repository\org\apache\spark\spark-core_2.11\2.2.1\spark-core_2.11-2.2.1.jar]]]] at org.eclipse.jdt.internal.core.JavadocContents.getTypeDoc(JavadocContents.java:81) at org.eclipse.jdt.internal.core.BinaryType.getAttachedJavadoc(BinaryType.java:999) at org.eclipse.jdt.internal.ui.text.javadoc.JavadocContentAccess2.getHTMLContent(JavadocContentAccess2.java:538) at org.eclipse.jdt.internal.ui.text.java.hover.JavadocHover.getHoverInfo(JavadocHover.java:757) at org.eclipse.jdt.internal.ui.text.java.hover.JavadocHover.internalGetHoverInfo(JavadocHover.java:675) at org.eclipse.jdt.internal.ui.text.java.hover.JavadocHover.getHoverInfo2(JavadocHover.java:667) at org.eclipse.jdt.internal.ui.text.java.hover.BestMatchHover.getHoverInfo2(BestMatchHover.java:164) at org.eclipse.jdt.internal.ui.text.java.hover.BestMatchHover.getHoverInfo2(BestMatchHover.java:130) at org.eclipse.jdt.internal.ui.text.java.hover.JavaEditorTextHoverProxy.getHoverInfo2(JavaEditorTextHoverProxy.java:86) at org.eclipse.jface.text.TextViewerHoverManager$4.run(TextViewerHoverManager.java:166) And Eclipse Version Eclipse Java EE IDE for Web Developers. Version: Oxygen.2 Release (4.7.2) Build id: 20171218-0600 EDIT: Added Error Detail Screenshot.
K.Nicholas
1

голосов
0

ответ
305

Просмотры

Динамически писать таблицы в DataFlow

Работая на трубопроводе в DataFlow. Мне нужно записать значения в множественную большой таблицу запроса, где нужные имена таблиц являются значением в PCollection. Например, с классом данных, как: общественный класс данных {Список TABLENAME общественности; публичный идентификатор строки; Значение общественного строки; } У меня будет PCollection и я хотел бы написать строку (идентификатор, значение) во все таблицы в списке tableNames. Возможно ли это в потоке данных? Буду ли я быть в состоянии использовать BigQueryIO.Write?
shockawave123
1

голосов
1

ответ
155

Просмотры

протоколирование ошибок в VirtualHost

Я бегу Ubuntu 14.04 с Apache. И я хочу, чтобы иметь отдельный журнал PHP-ошибки на VirtualHost. Я прочитал несколько тем StackOverflow и установить файл host.com, но он по-прежнему не работает. Ошибки PHP вошли в error.log, а не PHP-Error.log (я не забыл перезагрузить апач). Моя версия PHP: PHP 5.6.30-12 ~ ubuntu14.04.1 + deb.sury.org + 1 (кли). Мои имена host.conf файл: ServerName dev.domain.com ServerAdmin [email protected] DocumentRoot /var/www/html/domain.com/dev.domain.com/public_html ErrorLog /var/log/logs/domain.com/dev .domain.com / dev.domain.com.error.log CustomLog /var/log/logs/domain.com/dev.domain.com/dev.domain.com.access.log комбинированные php_flag log_errors на php_flag display_errors на php_value error_reporting 2147483647 php_value error_log /var/log/logs/domain.com/dev.domain.com/dev.domain.com.php-error. войти Options + Indexes + FollowSymlinks -MultiViews AllowOverride All Order Allow, Deny позволяют из всех SSLCertificateFile /etc/letsencrypt/live/dev.domain.com/cert.pem SSLCertificateKeyFile /etc/letsencrypt/live/dev.domain.com/privkey. PEM Включите /etc/letsencrypt/options-ssl-apache.conf SSLCertificateChainFile /etc/letsencrypt/live/dev.domain.com/chain.pem Есть идеи? ------ ------ EDIT Также я попробовал так: ServerName dev.domain.com ServerAdmin [email protected] DocumentRoot /var/www/html/domain.com/dev.domain.com/ public_html ErrorLog /var/log/logs/domain.com/dev.domain.com/dev.domain.com.error.log CustomLog /var/log/logs/domain.com/dev.domain.com/dev.domain. com.access.log комбинированные Options + Indexes + FollowSymLinks -MultiViews AllowOverride All Order Allow,
Linas Lg
1

голосов
0

ответ
308

Просмотры

Надежный веб Оправа Streaming Кафки в Java

Мне нужно записать из ненадежного подключения веб-сокетов и потока в Кафка. Наш Кафка кластер является довольно надежным и мы можем сделать его высокую доступность. Каков наилучший подход, чтобы сделать подключение к веб-сокетов в качестве надежной, насколько это возможно? Я хотел бы, чтобы свести к минимуму потери данных. Одним из решений будут иметь несколько процессов или веб-сокеты клиентов прослушивания и потоковые к нескольким темам Кафок. Затем сделать фильтр с Кафкой потоков. Это работает только тогда, когда каждое сообщение, которое я получаю имеет уникальный идентификатор, который не всегда. Другим решением было бы контролировать подключение веб-сокетов и перезапустить или сбросить его. Но тогда я, возможно, потерю данных. Или полагаться на веб-сокетов сердцебиения? Или коды своих собственных обработчиков ошибок? Какие каркасы / библиотеки из Java в этом пространстве, чтобы сделать лучшую работу? В настоящее время я использую клиент веб-сокеты от org.java-WebSocket.
Daniel
1

голосов
2

ответ
134

Просмотры

Apache HttpClient working intermittently

Я не очень опытный с веб-разработки, так что это, вероятно, начинающий проблема. У меня есть небольшой проект с двумя веб-приложений Java на двух разных машинах на Tomcats, один сталкивается пользователь (внешний интерфейс, FE приложение) и сообщающихся с другой (бэкэндом, ВЕ приложение). BE обменивается данными с БД через TCP и с FE через REST API. Проблема заключается в том, что Apache HttpGet используется в приложении FE достигает BE приложение только иногда, но обычно на FE я UnknownHostException. BE связи с БД или непосредственно ориентации BE REST API из браузера всегда работает. Какие журналы я должен смотреть на, и что я должен делать установки котами? По умолчанию Tomcat регистрация не дает мне много информации, но я предполагаю, что это проблема конфигурации Tomcat, так как брандмауэры вниз и все остальные TCP связь работает без проблем. Ниже мой (очень Vanilla) использование Apache HttpGet: ... Строка URL = string.Format ( "HTTP: //% s / AutoexcludedDBService / nacionalidades", properties.getProperty ( "dbWebService")); CloseableHttpClient клиент = HttpClients.createDefault (); CloseableHttpResponse ответ = NULL; Строка JSON = NULL; = Строка статус строки статус нуль; попробуйте {HttpGet запрос = новый HttpGet (URL); //request.setHeader(HttpHeaders.CONTENT_TYPE, "применение / JSON"); request.addHeader ( "принять", "приложения / JSON"); request.addHeader ( "User-Agent", HTTP.USER_AGENT); RequestConfig requestConfig = RequestConfig.custom () .setConnectionRequestTimeout (10000) .setConnectTimeout (10000) .setSocketTimeout (10000) .build (); request.setConfig (requestConfig); ответ = client.execute (запрос); ...
Toma Krstic

Просмотр дополнительных вопросов

Связанные вопросы